命名实体识别是自然语言处理中的一项基本任务,旨在对文本中的命名实体进行定位和分类。由于大规模且经过良好注释的数据集,基于深度学习的方法(Li et al.,2022b;Devlin et al.,2019)取得了巨大成功。然而,在具有 112 个细粒度命名实体标签的真实数据集(如 Ling 和 Weld(2012))中,大量的实体类别可能会导致不可避免的注释缺失。此外,在实际场景中,为了获得大型 NER 数据集,远程监督方法(Ren et al.,2015;Fries et al.,2017)可能会使这个问题更加严重,因为实体词典无法覆盖所有实体。前人的研究(Li et al.,2021;Shang et al.,2018)发现这个问题严重阻碍了NER模型的性能,并将这个问题命名为无标记实体问题。如图1所示,未标记的第二个“NBA”可能会混淆模型并引入不必要的噪音。为了解决这个问题,人们从不同的角度提出了几种尝试。受到启发
主要关键词